Scholar Hub/Chủ đề/#khai phá dữ liệu/
Khai phá dữ liệu (Data Mining) là quy trình phân tích dữ liệu tự động hoặc bán tự động để khám phá các mẫu, thông tin hữu ích và kiến thức độc đáo từ bộ dữ liệu...
Khai phá dữ liệu (Data Mining) là quy trình phân tích dữ liệu tự động hoặc bán tự động để khám phá các mẫu, thông tin hữu ích và kiến thức độc đáo từ bộ dữ liệu lớn. Nó bao gồm việc áp dụng các kỹ thuật phân tích dữ liệu, thuật toán máy học và trí tuệ nhân tạo để tìm kiếm các mẫu ẩn, quy tắc, thông tin tiềm ẩn trong dữ liệu, từ đó giúp người dùng hiểu rõ hơn về dữ liệu và đưa ra quyết định thông minh. Việc khai phá dữ liệu được áp dụng rộng rãi trong nhiều lĩnh vực, bao gồm kinh doanh, y tế, marketing, khoa học, và xã hội học.
Khai phá dữ liệu là quá trình tìm kiếm thông tin, mô hình, cấu trúc và kiến thức từ dữ liệu không cấu trúc, dữ liệu lớn hay dữ liệu phức tạp. Nó tập trung vào việc phân tích dữ liệu để khám phá các mẫu, quy tắc, tổ chức, mối quan hệ hoặc tri thức ẩn trong dữ liệu.
Các kỹ thuật khai phá dữ liệu thường sử dụng các phép toán dựa trên số học, thống kê, máy học và trí tuệ nhân tạo để phân tích dữ liệu. Dưới đây là một số kỹ thuật khai phá dữ liệu phổ biến:
1. Phân cụm (Clustering): Phân cụm nhóm các đối tượng tương tự lại với nhau dựa trên các thuộc tính chung. Phân cụm giúp hiểu về cấu trúc của dữ liệu và cung cấp quan điểm tổng thể về sự tương quan giữa các đối tượng.
2. Phân loại (Classification): Xây dựng các mô hình để phân loại đối tượng vào các nhãn được xác định sẵn. Các thuật toán phân loại học từ dữ liệu huấn luyện và sau đó phân loại các mẫu mới dựa trên mô hình đã học.
3. Học tập theo quy tắc (Association rule learning): Tìm kiếm các quy tắc liên kết giữa các biến/tuần tự. Ví dụ: "Nếu khách hàng mua sản phẩm X, họ thường cũng mua sản phẩm Y".
4. Dự đoán (Prediction): Dự đoán giá trị hoặc quyết định tương lai dựa trên các biến đã biết. Các mô hình machine learning được sử dụng để ước lượng và dự đoán kết quả.
5. Phân tích chuỗi thời gian (Time series analysis): Phân tích và dự đoán xu hướng và mô hình của dữ liệu trong tuần tự thời gian.
Trong quy trình khai phá dữ liệu, người sử dụng thường tiến hành các bước sau: thu thập dữ liệu, xử lý dữ liệu (lọc, chuẩn hóa, biến đổi), chọn mô hình và thuật toán phù hợp, thực hiện đào tạo mô hình, đánh giá và tinh chỉnh, và cuối cùng sử dụng kết quả để rút ra thông tin hữu ích và đưa ra quyết định.
Phương pháp tương tác so với các phương pháp truyền thống: Một khảo sát dữ liệu bài kiểm tra cơ học của hơn sáu nghìn sinh viên cho các khóa học vật lý cơ bản Dịch bởi AI American Journal of Physics - Tập 66 Số 1 - Trang 64-74 - 1998
Một khảo sát dữ liệu trước/sau bài kiểm tra sử dụng bài kiểm tra Chẩn đoán Cơ học Halloun–Hestenes hoặc Đánh giá Khái niệm Lực gần đây hơn được báo cáo cho 62 khóa học vật lý cơ bản với tổng số sinh viên đăng ký N=6542. Một phân tích nhất quán trên các nhóm sinh viên đa dạng tại các trường trung học, cao đẳng và đại học đạt được nếu một đo lường thô về hiệu quả trung bình của một khóa học trong việc thúc đẩy hiểu biết khái niệm được coi là lợi ích chuẩn hóa trung bình 〈g〉. Lợi ích nay được xác định là tỷ lệ giữa lợi ích trung bình thực tế (%〈post〉−%〈pre〉) với lợi ích trung bình tối đa có thể (100−%〈pre〉). Mười bốn khóa học “truyền thống” (T) (N=2084) mà ít hoặc không sử dụng các phương pháp tương tác-engagement (IE) đạt được lợi ích trung bình 〈g〉T-ave=0.23±0.04 (độ lệch chuẩn). Ngược lại, 48 khóa học (N=4458) mà sử dụng đáng kể các phương pháp IE đạt được lợi ích trung bình 〈g〉IE-ave=0.48±0.14 (độ lệch chuẩn), gần hai độ lệch chuẩn của 〈g〉IE-ave vượt trên lợi ích của các khóa học truyền thống. Kết quả cho 30 (N=3259) trong số 62 khóa học trên về bài kiểm tra Cơ học Cơ sở vấn đề của Hestenes–Wells ngụ ý rằng các chiến lược IE nâng cao khả năng giải quyết vấn đề. Kết quả từ các bài kiểm tra khái niệm và giải quyết vấn đề mạnh mẽ gợi ý rằng việc sử dụng phương pháp IE trong lớp học có thể tăng cường hiệu quả của các khóa học cơ học vượt xa so với những gì có được trong thực hành truyền thống.
#phương pháp tương tác #phương pháp truyền thống #khảo sát dữ liệu #bài kiểm tra cơ học #hiệu quả khóa học #hiểu biết khái niệm #khả năng giải quyết vấn đề
Phát hiện vi phạm ranh giới khai thác mỏ lộ thiên bằng dữ liệu Sentinel-2 MSI ở các tỉnh Lào Cai và Yên Bái miền Bắc Việt Nam Dịch bởi AI Mining Science and Technology(Russian Federation) - Tập 8 Số 2 - Trang 173–182 - 2023
Khai thác mỏ trái phép, bao gồm việc vi phạm ranh giới cho thuê trong quá trình khai thác khoáng sản ở Việt Nam, đã chứng kiến sự gia tăng đáng kể trong những năm gần đây, dẫn đến tổn hại lớn cho môi trường. Do vị trí xa xôi của các khu vực khai thác so với các khu dân cư, việc phát hiện các hoạt động khai thác mỏ trái phép bằng các phương pháp truyền thống gặp nhiều thách thức đáng kể. Nghiên cứu này trình bày một phương pháp xác định vi phạm ranh giới cho thuê trong khai thác mỏ lộ thiên bằng cách sử dụng hình ảnh vệ tinh độ phân giải cao từ hệ thống Sentinel-2 MSI. Phương pháp đề xuất bao gồm việc chồng lắp các hình ảnh vệ tinh thu thập từ radar Sentinel-2 MSI để xác định sự khác biệt giữa ranh giới cho thuê được phê duyệt và ranh giới thực tế của các khu vực khai thác. Nghiên cứu tập trung vào các tỉnh giàu khoáng sản Lào Cai và Yên Bái ở miền Bắc Việt Nam. Các phát hiện của nghiên cứu này có tiềm năng lớn trong việc theo dõi hiệu quả và phát hiện kịp thời các vi phạm ranh giới cho thuê khai thác.
#khai thác mỏ trái phép #cảm biến từ xa #dữ liệu Sentinel-2B MSI #Vietnam #các tỉnh Lào Cai và Yên Bái
Giải Pháp Hiệu Quả cho Phân Loại Naïve Bayes Duy Trì Tính Riêng Tư Trong Mô Hình Dữ Liệu Phân Tán Hoàn Toàn Dịch bởi AI Hội thảo nghiên cứu ứng dụng Mật mã và An toàn thông tin - Tập 1 Số 15 - Trang 56-61 - 2022
Tóm tắt—Gần đây, việc bảo vệ tính riêng tư đã trở thành một trong những vấn đề quan trọng nhất trong khai phá dữ liệu và học máy. Trong bài báo này, chúng tôi đề xuất một bộ phân loại Naïve Bayes duy trì tính riêng tư mới cho kịch bản dữ liệu phân tán hoàn toàn, nơi mỗi bản ghi chỉ được giữ bởi một chủ sở hữu duy nhất. Giải pháp mà chúng tôi đề xuất dựa trên một giao thức tính toán bảo mật đa bên, vì vậy nó có khả năng bảo vệ an toàn tính riêng tư của từng chủ sở hữu dữ liệu, cũng như đảm bảo chính xác mô hình phân loại. Hơn nữa, kết quả thí nghiệm của chúng tôi cho thấy giải pháp mới đủ hiệu quả cho các ứng dụng thực tiễn.
#khai phá dữ liệu và học máy đảm bảo tính riêng tư; tính toán bảo mật nhiều thành viên; phân lớp Naïve Bayes; mã hóa đồng cấu; tính riêng tư của dữ liệu
Sử dụng một số công cụ tin sinh khai thác gen mã hóa enzyme phân hủy lignocellulose từ dữ liệu metagenome của vi sinh vật trong ruột mối Coptotermes gestroiTrong nghiên cứu trước đây, chúng tôi đã thu nhận và giải trình tự DNA metagenome của khu hệ vi sinh vật ruột mối Coptotermes gestroi bằng máy giải trình tự thế hệ mới (Illumina) và đã nhận được dữ liệu DNA với hơn 5 Gb. Sử dụng phần mềm MGA (MetaGeneAnnotator) đã dự đoán được 125.431 khung đọc mở (ORF). Số lượng ORF có liên quan đến quá trình trao đổi carbohydrate là 8508, trong đó có 587 ORF mã hóa cho các enzyme tham gia vào quá trình thủy phân lignocellulose. Với mục đích khai thác được các trình các trình tự DNA từ dữ liệu metagenome mã hóa enzyme có khả năng chịu kiềm và đưa vào thực nghiệm thành công, chúng tôi đã tìm kiếm được một số phần mềm phù hợp để dự đoán chức năng, cấu trúc và đặc tính của enzyme với độ tin cậy cao. Alcapred để dự đoán khả năng chịu kiềm, công cụ Blastp để dự đoán vùng bảo thủ (conserved domain) của trình tự amino acid suy diễn từ ORF, công cụ Phyre2 để dự đoán cấu trúc không gian và vị trí gắn cơ chất của enzyme, công cụ của TBI để dự đoán khả năng chịu nhiệt của enzyme. Kết quả là đã khai thác được 6 ORF hoàn thiện mã hóa enzyme chịu kiềm cellulase (GL0101308, GL0038126) và hemicellulase (GL0120095, GL0074258, GL0112518, GL0067868) từ số liệu metagenome của vi sinh vật ruột mối C gestroi. Các ORF được lựa chọn từ kết quả của Blastp đều được dự đoán có độ bao phủ từ 90% trở nên và hệ số tương đồng từ thấp (44%) đến cao (99%), chứa vùng bảo tồn và vị trí gắn của enzyme vào cơ chất. Tỷ lệ tương đồng cấu trúc bậc hai của cellulase và hemicellulase với các protein đã được công bố khi dự đoán bằng Phyre2 tương tự như kết quả dự đoán của Blastp, với độ tin cậy từ 98% đến 100%. Trong 6 enzyme lựa chọn có 2 enzyme được dự đoán có khả năng chịu nhiệt trên 65℃, 3 enzyme chịu nhiệt từ 55℃~65℃ và chỉ có một enzyme chịu nhiệt dưới 55℃.
#Cellulase #Coptotermes gestroi #hemicellulase #lignocellulose #metagenomic #metagenome #bioinformatics
Ứng dụng kỹ thuật phân cụm và luật kết hợp khai phá dữ liệu khách hàng sử dụng dịch vụ khách sạnNgày nay, ngành công nghiệp du lịch, đặc biệt là kinh doanh khách sạn đang phát triển mạnh mẽ. Dữ liệu khách hàng lưu trú tại khách sạn được lưu trữ chứa rất nhiều tri thức giá trị. Tuy nhiên, dữ liệu này lại không được khai thác triệt để. Trong khi đó, các nhà quản trị khách sạn đang rất cần được hỗ trợ về vấn đề chăm sóc khách hàng, đưa ra chính sách tối ưu trong quản lý từ những tri thức có được nếu dữ liệu của khách hàng được khai thác và sử dụng hiệu quả. Bài báo tập trung nghiên cứu kỹ thuật phân cụm và luật kết hợp trong khai phá dữ liệu để phân tích dữ liệu khách hàng lưu trú tại khách sạn, giúp các nhà quản trị có thể nắm được đặc điểm khách hàng và đưa ra được các quyết định kinh doanh hợp lý. Trên cơ sở các tri thức phát hiện được, một giao tiếp trên nền web được xây dựng để người dùng sử dụng các tri thức này vào phân tích dữ liệu khách hàng sử dụng dịch vụ khi lưu trú tại khách sạn.
#khai phá dữ liệu #phân tích hành vi #phân cụm #luật kết hợp #dịch vụ khách sạn
Ứng dụng luật kết hợp trong khai phá dữ liệu chứng khoánThị trường chứng khoán Việt Nam đang phát triển mạnh mẽ trong những năm gần đây. Với số lượng các công ty niêm yết trên thị trường chứng khoán tăng nhanh chóng đã thu hút rất nhiều nhà đầu tư. Cùng với sự phát triển mạnh mẽ của thị trường chứng khoán, khối lượng dữ liệu sinh ra từ giao dịch chứng khoán không ngừng tăng lên một cách nhanh chóng theo thời gian. Trong khối lượng dữ liệu khổng lồ này, chứa đựng nhiều tri thức tiềm ẩn rất có giá trị đối với các nhà đầu tư chứng khoán.Bài báo này tập trung nghiên cứu về kỹ thuật luật kết hợp trong khai phá dữ liệu và ứng dụng kỹ thuật này nhằm phát hiện các tri thức tiềm ẩn (các mối quan hệ, tương quan) về thay đổi (tăng, giảm) giá và khối lượng lượng giao dịch của các mã chứng khoán. Dựa vào các tri thức phát hiện được từ mô hình khai phá dữ liệu, một công cụ sẽ được xây dựng nhằm hỗ trợ cho các nhà đầu tư chứng khoán ra quyết định một cách hiệu quả và tin cậy hơn.
#chứng khoán #khai phá dữ liệu #luật kết hợp #mô hình dự đoán #giao dịch
Ứng dụng mô hình máy học Véc-tơ tựa (SVM) trong phân tích dữ liệu điểm sinh viênBài báo này đề xuất ứng dụng mô hình kết hợp máy học véc-tơ tựa và hệ thống mờ trong việc trích xuất luật mờ từ dữ liệu điểm sinh viên. Máy học Véc-tơ tựa (SVMs) và hệ thống luật mờ có sự tương đương nhau với một số điều kiện nhất định. Trên cơ sở phân tích sự tương đương giữa mô hình máy học Véc-tơ tựa với mô hình mờ (Fuzzy model), chúng tôi đề xuất một mô hình tích hợp SVMs và Fuzzy model để trích xuất luật mờ từ kết quả huấn luyện SVMs. Thuật toán f-SVM cho phép sản xuất được các luật mờ từ dữ liệu huấn luyện. Dữ liệu điểm thực tế của sinh viên được sử dụng để kiểm tra khả năng thực hiện của mô hình đề xuất. Tập luật mờ trích xuất được từ tập dữ liệu huấn luyện bằng thuật toán f-SVM, sẽ được sử dụng để suy luận trên tập dữ liệu thử nghiệm.
#Máy học véc-tơ tựa #mô hình mờ #khai phá luật kết hợp #khai phá dữ liệu #luật mờ
Ứng dụng kỹ thuật cây quyết định trong khai phá dữ liệu xây dựng hệ thống tư vấn chọn ngành tuyển sinh Đại học.Hiện nay, vấn đề tư vấn chọn ngành tuyển sinh đại học đang nhận được sự quan tâm rất lớn của xã hội. Mặc dù có rất nhiều websites tư vấn tuyển sinh, tuy nhiên các website này chỉ phục vụ cho việc tra cứu thông tin. Vấn đề cốt lõi của tư vấn tuyển sinh là làm sao giúp cho thí sinh có thể chọn được ngành học phù hợp với năng lực của mình. Bài báo này tập trung nghiên cứu kỹ thuật cây quyết định trong khai phá dữ liệu để xây dựng mô hình dự đoán nhằm tư vấn cho thí sinh có thể chọn được ngành học phù hợp với năng lực của mình. Dựa vào các tri thức phát hiện được từ mô hình dự đoán, một giao tiếp được xây dựng trên nền web để người dùng có thể dễ dàng sử dụng các tri thức này vào việc chọn ngành học cho mình.
#chọn ngành #cây quyết định #khai phá dữ liệu #mô hình dự đoán #tuyển sinh đại học
FHNM: Thuật toán khai phá tập mục hữu ích cao từ cơ sở dữ liệu giao tác có giá trị hữu ích âmCác thuật toán khai phá tập mục hữu ích cao thường có xu thế khai thác được các tập mục có nhiều mục[1,2,3]. Tuy nhiên, các tập mục có nhiều mục thường là các tập mục hiếm nên không có nhiều ý nghĩa đối với người sử dụng[5]. Thuật toán FHM+[5] khai phá tập mục hữu ích cao nhưng thu gọn được độ dài của các tập mục với điều kiện giá trị hữu ích của các mục là dương, nhưng trong thực tế có nhiều cơ sở dữ liệu giao tác có chứa các mục có giá trị hữu ích ngoại âm. Vấn đề đặt ra là làm thế nào để khai phá tập mục hữu ích cao từ cơ sở dữ liệu có chứa các mục có giá trị hữu ích ngoại là âm dựa trên ràng buộc về độ dài của tập mục. Để giải quyết vấn đề đã đặt ra, trong bài báo này chúng tôi đề xuất một thuật toán mới được xây dựng từ sự cải tiến của thuật toán FHM+ và FHN[4] có tên là FHNM
#cơ sở dữ liệu giao tác #tập mục hữu ích cao #khai phá tập mục hữu ích cao #hữu ích ngoại âm #ràng buộc độ dài